非结构化数据策略对企业的重要性
Source: Tony Fyler,The importance of an unstructured data strategy for enterprise, 9 December 2022
近年来,非结构化数据的指数级增长,已成为企业面临的大问题之一。我们采访了Komprise的联合创始人Krishna Subramanian,该公司每天处理企业级问题的非结构化数据,以了解为什么尽早管理非结构化数据符合公司的利益。
THQ:于遇到这个问题的任何新手来说,非结构化数据的根本问题是什么?说到这里,当我们说“非结构化数据”时,我们在说什么?
KS:结构化数据是任何不适合数据库的数据,并且不是真正在行和列中结构化的数据。因此,手机上的每一张照片,每张X射光影像,每张核磁共振扫描片,每个基因组序列,自动驾驶汽车生成的所有数据——所有这些都是非结构化数据。也许与更多的企业更相关,人工智能(AI)和机器学习(ML)——它们依赖于非结构化数据,并且通常也输出非结构化数据。
非结构化数据每天都在以真正惊人的速度增长。如今,全球85%的数据是非结构化数据。而且每两年翻一番多。
THQ:们只是老了,还是这是一个相当新的东西?
KS:绝对是相当新的。回到十年前,几乎没有人会知道我们在说什么。与结构化数据相比,当时的非结构化数据非常小。
THQ:因为当时要被视为“数据”,你必须是适合数据库的那种数据?
KS:部分原因是智能手机等事物的日益普及,人工智能和机器学习等激进新技术的发展,以及以前未数字化的数据的数字化——想想人口普查数据、医疗记录、土地登记,所有这些东西。
THQ:因此,自从云问世以来,基本上,我们已经为非结构化数据而疯狂。而且每天都有越来越多的。这是我们在扮演魔鬼代言人,但是...企业为什么要关心?更不用说制定非结构化数据策略来处理这个问题了?
一大堆笔记本电脑。
KS:有几个原因。当我们说生成大量非结构化数据时,我们不只是在谈论“您的硬盘驱动器已满”的数据级别。举个例子,我们与制药公司辉瑞合作。辉瑞科学家每天产生约10TB。
THQ:我们现在正在通过一台2TB的笔记本电脑与您交谈。
KS:还有四个笔记本吗?这就是我们正在谈论的——每天五台笔记本电脑的习惯。
你明天醒来,又是五台笔记本电脑。第二天,再下一轮。
THQ:好的,这是很多数据。明白了。
KS:大多数生成如此大量数据的公司都必须将数据保留25年。
THQ:那是……这是45500台笔记本电脑的容量。
KS:因此,当我们说这是一个太大而无法忽视的问题时,现在您对问题的严重程度有所了解。
THQ:很多很多笔记本电脑的问题。
KS:对。但这只是问题的一部分。毕竟,现在是2020年代,您实际上不会将所有数据存储在无穷无尽的笔记本电脑上。有许多更高效的存储解决方案。
首先,捕获您的数据。
THQ:答案是肯定的。
KS:哪些数据需要哪种解决方案?因为它们都有不同的成本影响。哪些数据需要昂贵的永久存储,哪些数据需要较少的永久存储?哪些是热数据?哪个冷?
THQ:我们怎么知道?
KS:正是。另外,所有数据在哪里?大多数企业都不确定他们拥有哪些数据,更不用说它位于哪些孤岛中了。
THQ:所以——这将是一个非结构化的数据策略,然后……
KS:对的。这个问题太大了,不容忽视,而且如果他们支付高价来存储所有数据,那么他们也可能日复一日,周复一周地损失企业的资金,就好像它是一样的一样。
不过,想知道最好的一点吗?
THQ:总是。
KS:如果你得到一个非结构化数据策略,你不仅可以找到所有数据,你不仅可以节省数据的存储,而且一旦你在非结构化数据周围放置了一些结构,你就可以挖掘数据。如果你能做到这一点,你就可以把数据变成产生收入的东西。
旧数据的钱。
THQ:因此,从根本上来讲,不要白白花费冤枉钱存储数据,而是让它可以偿还您这样做的成本?
那么,在业务、非结构化数据、战略和解决方案的意识和导入方面,我们处于什么位置呢?
KS:好吧,关键是,它太大了,现在不容忽视。明年只会越来越不可能被忽视。今天有技术和专业知识来解决这个问题,所以你每天等待,你只是在助长问题。
THQ:所以从本质上讲,争论的不是公司为什么要这样做,而是他们为什么不尽快这样做,让存储猴子从他们的背上下来,开始让它付出代价?
解决方案的工作原理。
KS:对的。如今,公司正淹没在非结构化数据中。他们不知道什么是有价值的,什么是没有价值的,勒索病毒正在出现,可以窃取他们的数据。他们必须存储并保护这些数据,他们必须遵守法律法规。
THQ:那么问题是如何解决的呢?
KS:公司需要一些技术来帮助他们,因为这个问题的规模太大了。
他们想要的第一件事是一些自动化,这样他们就可以了解他们拥有哪些数据,增长速度有多快,谁在使用它,它在哪里,它的成本是多少,以及他们的数据的安全状况如何。
THQ:那么,全面的数据审计?
以采访为例。
KS:对。他们想要的第二件事是数据移动(data mobilization)。如何使用这些分析在正确的时间将数据移动到正确的位置?之所以重要,是因为数据在其生命周期的不同阶段实际上具有不同的价值。进行此对话。我们在说话时正在记录它。一旦我们有了录音,也许你会从现在到你写文章的时候听几次录音,以确保你的引号是正确的。它具有很高的相关性价值,直到您使用它来撰写文章。
然后呢?在网站上线后的第二天,您将以网站上的故事形式获得新版本的数据。你回去再听录音的可能性有多大?
也许你可以保留一段时间,以防出现问题,受访者说“我没这么说”或“你解释错了”。如果您保留录音,您可以仔细检查准确性,并根据需要进行修改,或者说“你说的正是——我在录音中。”
一年后呢?那么录音的相关价值是什么?可能要少得多,对吧?在这种情况下,您甚至可以安全地删除数据,因为您已经在本文中建立了它的另一个版本。大多数企业实际上保留了大部分数据,以防以后可能需要。但大多数数据都是冷的,从未被积极使用过。
但是,如果您将冷数据保存在昂贵的存储中,并且可能保留三到四个备份,并在某处保留勒索病毒保护副本,那么他们可能不需要大量额外的成本和基础设施,因为他们存储的是冷数据。这并不是说您不保护冷数据——如果您不这样做,数据窃贼很容易选择它——但如果它是冷的,您可以采取更被动的数据管理方法来使用它。
假设你知道它在那里,它是什么,以及它的热量水平。如果你知道所有这些,并且你知道它是冷数据,你可以把它放在更便宜的存储上,或者像云这样的持久存储上,云本身会保留两到三个数据副本。但是,在开始数据管理过程之前,您不知道所有这些细节。
所以有主动数据管理和被动数据管理,两者的成本是截然不同的。如果您了解自己的数据,并且可以在正确的时间将正确的数据移动到正确的位置,则可以节省70%到80%的非结构化数据基础架构成本。这是我们的客户想要做的第一件事。
THQ:因此,据我们了解,就遵守某些条例而言,控制非结构化数据是财务上的需要,但长期最大限度地降低数据存储成本也是有意义的。当然,通过组织非结构化数据,您可以开始挖掘它以获得潜在的有利可图的回报,而以前它只是一种经济负担。
公司通过能够查看所有非结构化数据并挖掘所有数据来开辟哪些机会?他们能用它做什么样的事情?
令人兴奋的部分。
KS:在前面的讨论中,我称之为令人兴奋的部分。正如你所说,有法律方面和节省成本的一面,这一切都很棒,很有用,但这只是赌注。公司能够实际处理数据,这是令人兴奋的部分,因为它因企业而异,并且存在公司以前从未想到的机会。
在你知道你可以用它做什么之前,你需要能够知道数据是什么,在他们开始处理他们的非结构化数据之前,他们没有这些信息。
一旦你有了至少一个结构化框架的非结构化数据,你就可以开始考虑智能数据工作流了。因为如果你有一个系统的方式来理解数据,并围绕它创建某种虚拟结构,那就是灯泡开始在你的头顶熄灭的时候。
驾驶之眼。
我给你举个例子。在自动驾驶汽车中,汽车在行驶时会拍摄大量照片。因此,您可能会有数百张来自不同汽车的相同停车标志的照片,或者道路上所有自行车的图片。其中很多实际上并不相关。如果汽车犯了错误,你想知道它在那一刻看了什么,但如果它没有犯错,并且算法运行良好,你不必把这些数据带进来并永远保存它,因为你知道它是同一个停车标志。你知道这是汽车记录的。
因此,在将数据带到数据中心之前,您应该在边缘进行一些剔除,因为它的数据太多,您无法保留所有数据。使用智能数据工作流程,它将分析边缘的所有数据,为数据编制索引,然后你可以拿起它,你可以运行一些预处理并说,“好吧,我知道在这些时候发生了有趣的事件,我只想保持图像与这些时间帧相关。不要给数据中心带来任何其他东西。”
创建这样的工作流程,然后软件可以为您完成,然后将正确的数据移动到数据中心或云中进行进一步处理。所以也许你想对其余的数据运行一些人工智能算法,或者你想做一些数据挖掘,因为现在你有历史,也许从所有时间开始,特定型号的汽车撞车,或者没有在停车标志处正确停车,或者刹车太用力。你想把所有这些数据集放在一起,然后对它们运行一些东西,看看是否有外部原因导致这些事情发生在这个汽车模型的红绿灯上,或者汽车的编码中是否有一些东西需要调整。
非结构化差异。
顺便说一下,所有这些事情对我们来说都很容易用结构化数据来完成。如果我在零售环境中给你这个问题,你会知道如何做到这一点,你会知道你需要一个数据库,你会知道你需要一个数据仓库,你会知道你需要一个ETL工具。
结构化数据有所有这些技术。但是当涉及到非结构化数据时,没有这种技术,没有像非结构化数据的数据库,没有什么比非结构化数据的索引更像非结构化数据的索引,没有什么比对非结构化数据的系统预处理更像了,所以所有这些都是在构建的。数据湖开始处理非结构化数据。他们一直非常专注于半结构化数据,然后扩展到非结构化数据。
因此,数据分析正在随着非结构化数据的增长而增长。在不同的行业中,非结构化数据的处理也在增长,例如在文件中查找个人身份信息或检测视频图像中的内容。所有这些都很好,但是索引数据、调用数据、创建工作流、将数据提取到环境中,然后将结果汇总到标签中的系统方法呢?这就是数据管理的作用。非结构化数据缺少这一部分。因此,非结构化数据的智能数据工作流是我们看到很多机会的地方。这有意义吗?
THQ:是的,它就像非结构化数据——最后的边界。每当灯泡在某人的头顶熄灭时,它要么开始导入我们已经可以用非结构化数据做的事情并根据他们的特定需求进行定制,以便现在存在一个工具来做到这一点,要么它会识别一些我们无法用非结构化数据做的事情,但智能数据工作流程可能会帮助我们变成现实。就像在商业需求的前沿建立管理非结构化数据的科学一样。
接下来的12个月。
那么,我们认为2023年非结构化数据管理的前景如何?
KS:你知道,我不认为这是一夜之间的事情。我不认为一年后,每个人都会进行非结构化数据管理。但是,将要发生的事情,以及已经发生的事情是,该行业将在这个问题上进行创新。
正如我已经提到的,像Databricks和Snowflake这样的供应商,以及所有的数据仓库和数据湖公司都开始提供非结构化数据的分析。这将持续到2023年——他们将增加更多分析非结构化数据的功能。像我们这样的公司正在提供一种为非结构化数据编制索引并创建非结构化数据的智能数据工作流的方法。
为非结构化项目编制索引。
我们将继续在这方面进行创新,使其变得越来越容易。我们的客户开始让他们的部门用户参与进来。这是一件非常重要的事情,因为到目前为止,管理非结构化数据主要由IT团队完成。IT部门并不真正知道数据中的内容。他们基本上只是存储和保护它。所以他们正在研究数据的基础设施。但是通过让部门用户参与进来,他们可以告诉它“嘿,这些数据对我很有用,这就是我想用它做的事情。”通过与用户建立这种协作,他们正在采取非常重要和必要的步骤,使整个事情发展到下一个阶段。这就是我认为我们今年会看到更多的东西。
THQ:当我们讨论它时,您如何为非结构化数据编制索引?
KS:非结构化数据没有通用结构。但它确实有一种叫做元数据的东西。因此,每次您在手机上拍照时,手机都会捕获某些信息,例如一天中的时间,拍照的位置,如果您将其标记为收藏夹,它也会带有元数据标签。它可能知道照片中的人,保留了某些元数据。
所有文件系统都存储有关数据的一些元数据。像我们这样的产品具有分布式方式,可以在存储数据的所有不同环境中进行搜索,并围绕数据创建所有元数据的全局索引。这本身就是一个难题,因为非结构化数据是如此巨大。PB级数据可能是几十亿个文件,其中许多客户正在处理数十到数百PB的文件。
因此,您需要一个系统,可以创建数千亿个文件的有效索引,这些文件可以分布在不同的地方。你不能使用数据库,你必须有一个分布式索引,这是我们在引擎盖下使用的技术,但我们针对这个用例对其进行了优化。因此,您创建了一个全局索引。
从困难到推动力。
但仅仅拥有这些是不够的。你必须不断丰富索引,因为元数据是非常基本的,它可能会告诉你文件的名称,什么时候创建的,谁创建了它,谁在使用它,等等。但它不会告诉你“这是一张狗的照片”或“这是一个基因组”之类的话。它不会有那种信息。因此,您需要运行处理来获取此类信息。然后,您需要一种方法来标记和丰富数据,然后在移动数据时保持该标记的一致性。这就是全局文件索引的作用。如果你愿意的话,它会创建一个包含所有非结构化数据的分布式数据库,并且该数据库不断丰富更多信息。
THQ:我们对企业在未来12个月内接受这一挑战持乐观态度吗?
KS:非常乐观,是的,因为我们看到我们的客户群每年翻一番。它将首先由某些行业主导——生命科学已经接受了这项技术,例如大型制药公司也是如此。但是,越多的公司接受它,它就越接近无处不在,接近解决影响越来越多企业级企业的问题的方法。
THQ:把一个大问题变成潜在的推动力,把数据投入使用?
KS:我喜欢这个定义。没错,是的——通过高级分析将问题转化为机遇。